-HO T] 

7 ERAT | / 合 人 1 25 
第 38 卷 第 3 期 计算 机 应 用 研究 “Vol. 38 No. 3 
录用 定稿 Application Research of Computers Accepted Paper 


高 效用 模式 挖掘 关键 技术 综述 
ikem, Sb Wy, fh xz. thei, HAASE 


(北方 民族 大 学 计算 机 科学 与 工程 学 院 , 银川 750021) 


摘 32: 高 效用 模式 挖 据 (high utility pattern mining，HUPMD 是 近年 来 研究 的 新 兴 主 题 。 效 用 的 概念 为 分 析 人 员 挖 所 
相关 项 集 提供 了 更 大 的 灵活 性 , 以 用 户 的 需求 为 出 发 点 ,从 权重 、 值 、 数 量 和 其 他 信息 进行 度量 。 通 过 分 析 有 关 HUPM 
最 先进 的 方法 ， 对 其 进行 全 面 和 结构 化 的 概述 。 首 先 ， 通 过 介绍 HUPM 的 相关 概念 、 公 式 ， 并 给 出 应 用 示例 ， 对 
HUPM 有 更 深 一 步 的 理解 。 针 对 用 于 挖掘 不 同类 型 HUPM 的 最 常见 和 最 先进 的 关键 技术 的 进行 分 类 ， 包 括 基于 
Apriori， 基 于 树 ， 基 于 列表 ， 基 于 映射 ， 基 于 垂直 /水 平 数据 格式 ， 基 于 索引 等 方法 。 针 对 现 有 关键 技术 的 用 途 和 优 
缺点 ， 进 行 了 全 面 概述 。 然 后 ， 由 于 静态 数据 难以 满足 实际 需要 ， 总 结 了 在 数据 流 上 应 用 的 HUPM 方法 ,主要 包括 
基于 增 量 方法 ， 基 于 滑动 窗口 模型 方法 ， 基 于 时 间 衰 减 模型 方法 ， 基 于 地 标 模型 方法 等 。 最 后 ， 给 出 了 现在 技术 的 
不 足 和 改进 方向 ， 并 且 有 针对 性 的 提出 了 新 的 研究 方法 。 
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T - Abstract: High utility pattern mining (HUPM) is an emerging topic in recent years. The concept of utility provides greater 
flexibility for analysts to mine related itemsets, taking the user's needs as a starting point, measuring weights, values, quantities, 
and other information. This article provides a comprehensive and structured survey of the most advanced methods of HUPM 
by analyzing them. First of all, by introducing the relevant concepts and formulas of HUPM and giving application examples, 
this paper has a deeper understanding of HUPM. Classify the most common and advanced key technologies used to mine 
different types of HUPM, including Apriori-based, tree-based, list-based, projection-based, vertical/horizontal data-based, 
index-based, and more. This paper provides a comprehensive survey of the uses, advantages and disadvantages of existing 
key technologies. Then, because the static data is difficult to meet the actual needs, this paper summarizes the HUPM methods 


n applied on the data stream, mainly based on the incremental methods, based on the sliding window model methods, based on 
r the time decay model methods, based on the landmark model methods. Finally, this paper gives the shortcomings of the current 
technologies and the direction of improvement, and proposes new research methods in a targeted manner. 
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0 引言 TwoPhaser 算法 ， 这 是 经 典 算 法 之 一 。 该 算法 提出 了 事务 加 
权 效 用 D(transaction weighted utility, TWU) 和 事务 加 权 向 下 闭 

模式 挖掘 是 数据 挖掘 中 的 核心 任务 之 一 。 频 繁 模式 挖掘 fai (transaction weighted downward closure, TWDC) 的 属性 。 
(frequent itemset mining, FIM) 识 别 经 常 出 现在 事务 数据 集中 ”在 阶段 I 中 , 使 用 TWDC 属性 找到 候选 高 事务 加 权 效 用 项 集 


p 


的 项 集 ， 并 假设 所 有 项 都 具有 相同 的 重要 性 (单位 利润 ， 价 格 (high transaction weighted utility itemset HTWUIs); 在 阶段 I 
等 )。 但 是 , 一 个 项 在 事务 中 只 能 出 现 一 次 或 零 次 。 传 统 的 FIM 中 ， 需 要 额外 的 数据 库 扫 描 来 识别 实际 的 HTWUIs。 该 算法 
将 丢弃 此 信息 ， 可 能 会 挖掘 许多 低 利润 的 频繁 项 集 。 有 效 减少 ] 候选 项 的 数量 ， 精 确 得 到 了 高 效用 项 集 完备 集 ， 
高 效用 项 集 挖掘 (high utility itemset mining, HUIM) Æ 日 是 这 种 算法 由 于 生成 和 测试 方法 导致 执行 时 间 和 内 存 使 用 
FIM 的 一 个 重要 领域 。HUIM 考虑 项 和 项 集 的 数量 和 利润 来 x, 且 需 要 大 量 的 数据 库 扫 描 。 为 此 ， 提 出 其 他 算法 来 


衡量 项 目的 “有 用 性 ”。 如 果 数 据 库 中 项 集 的 总 效用 不 小 于 用 克服 Two-Phase 算法 的 不 足 。 作 为 其 中 之 一 ，IHUPDB] 算 法 使 
户 指定 的 最 小 效用 阔 值 (minimum utility threshold, minutil), | ihp-tree 数据 结构 ， 生 成 HTWUISs， 用 于 挖掘 增 量 数 据 库 DI 
则 称 为 高 效用 项 集 (high utility itemsets, HUIs). BW, EMA 中 的 HUIs。 但 是 ， 它 会 产生 大 量 候选 项 。 随 着 技术 不 断 的 进 


低 效用 项 集 。 例 如 ， 在 市 场 篮 子 分 析 的 背景 下 ， 它 包括 找到 步 ， HUP-growth[1 算 法 挖掘 没有 候选 项 生成 的 HUIs, 采用 两 
产生 至 少 等 于 某 个 最 小 效用 价值 的 利润 的 所 有 项 集 。HUIM 阶段 模型 和 HUP-tree 结构 来 维护 1-HTWUIs， 从 而 加 快 挖掘 
的 目标 是 识别 对 用 户 有 意义 的 项 或 项 集 。 因 此 ， 研 究 人 员 提 过程。PRE-HUI-DELG 算 法 ， 用 于 事前 删除 的 预 大 概念 (pre- 
出 了 许多 挖掘 HUIs 的 方法 ， 以 便 迅 速 采 取 适 当 的 措施 。 large concept) 更 新 高 效用 项 集 ， 从 而 加 快 更 新 信息 的 处 理 时 

在 HUIM 的 初期 , 研究 者 提出 了 基于 先 验 的 高 效用 模式 间 。PRE-HUI-INSISI 算 法 基于 pre-large 概念 的 特性 ， 保 留 了 
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HTWUISs, 以 避免 数据 库 重 做 , 直到 插入 的 事务 的 累积 总 效用 其 中 每 个 事务 到 中 的 项 是 了 的 子 集 。 项 集 工 是 了 的 子 集 。 事 
达到 安全 界限 。PIHUPI7 算 法 通过 一 个 附加 的 阀 值 来 处 理 动 务 五 中 的 项 的 数量 由 "0z) 表 示 。 外 部 效用 (2) 是 效用 表 
态 添 加 的 事务 ， 对 数据 库 只 需要 一 次 扫描 ， 更 适合 处 理 动态 ”中 项 的 单位 值 (例如 , 利润 )。 事 务 五 中 项 六 的 效用 , B liT) 
数据 。HUPPPG 算 法 ， 将 挖掘 HUPM 问题 扩展 到 挖掘 高 效用 表示， 定义 为 nmjsp) 。 令 项 集 工 为 了 的 子 集 。 事 务 五 中 世 
部 分 周期 模式 ， 不 仅 考虑 事件 的 发 生 时 间 顺 序 和 周期 长 度 ， 的 效用 ， 由 xxX,7) 表示 ， 定 义 为 
而 且 考虑 事件 的 数量 和 个 人 利润 。 该 算法 使 用 两 阶段 周期 效 UXT) =È, vu, T.) (1) 
用 上 限 模 型 来 避免 挖掘 过 程 中 的 信息 丢失 。 Wife x c Ber. B «CO 表示， 定义 为 

于 为 两 阶段 算法 在 阶段 I 生成 了 大 量 的 候选 项 ， 而 且 在 u= Y, uy a MOOT) (2) 
阶段 SpE Y RI EE, AE BR. RCL T 如 果 项 集 的 效用 不 低 于 用 户 指 定 的 minuti1， 则 该 项 集 称 
很 多 努力 以 减少 阶段 工 产生 的 候选 项 数量 ， 但 当 原始 数据 包 ”为 高 效用 项 集 。 否 则 ， 它 被 称 为 低 效 用 项 集 。HUIM 的 任务 
含 许多 长 事务 或 minutil 很 低 时 ， 挑 战 仍然 存在 。 因 此 ， 单 阶 “就 是 找到 所 有 高 效用 项 集 。 由 于 效用 不 具有 反 单 调 属性 ， 因 
段 算 法 的 提出 有 效 的 缓解 了 这 一 问题 。 此 运用 了 事务 效用 中 (transaction utility, TU) 和 TWUU 的 概念 

HUI-Miner[9 算 法 是 第 一 个 发 现 HUIs 的 单 阶段 算法 。 它 。 ”来 修剪 搜索 空间 。 事 务 的 事务 效用 ， 表 示 为 w7,)， 是 7 中 所 
提出 了 一 种 垂直 的 数据 结构 效用 列表 外 和 剩余 效用 列表 外 的 。” 有 项 的 效用 的 总 和 : 


E, 


在 许多 新 的 HUPM 算法 中 得 到 了 广泛 的 推 


P. 
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项 集束 的 事务 加 权 效 用 ， 


tu(T,) = 255 


Ui,» (3) 


的 总 和 : 


TWU(X) = ^, ,, s Ty) 


假设 有 一 个 小 型 事务 数据 


Sm UE X RB 


(4) 
fe, We d Hp. #2 显示 J 


每 个 项 的 利润 (外 部 效用 )。 表 


中 购买 的 每 个 项 的 数量 ( 即 局 


FHM0o 算 法 ， 考虑 2- 项 集 之 间 的 共 现 性 ， 增 强 了 HUI-Miner 
的 剪 枝 特 性 。CHUI-Mine0] 算 法 是 第 一 个 在 不 产生 候选 项 的 有 事务 的 事务 效用 
情况 下 ， 从 数据 库 中 找到 闭合 高 效用 项 集 完整 集合 的 紧凑 算 
法 。EFIMD2 算 法 依赖 于 两 个 新 的 上 界 : 修订 子 树 效用 和 局 部 
效用 ， 以 更 有 效 地 修剪 搜索 空间 。mHUIMinerI3] 算 法 利用 树 
结构 来 指导 挖掘 项 集 展开 过 程 ， 以 避免 考虑 数据 库 中 不 存在 
的 项 集 ， 并 且 没 有 复杂 的 前 枝 策略 。MHUIN4 算 法 用 来 挖掘 “每 个 事务 的 事务 效用 。 

有 多 个 minutil 的 HUIS。 此 算法 引入 了 后 绥 最 小 效用 的 概 在 事务 nH, WOK 
念 , 并 提出 了 有 效 挖掘 HUIs IJ SO BINE. KHMCUSIE — 80 元 的 事务 效用 ， 
发 现 Top-k 高 效用 项 集 ， 采 用 真实 项 效用 ， 共 存 效用 降序 和 ” ” 数据 库 中 项 4 的 效用 
覆盖 概念 三 种 策略 来 有 效 地 提高 其 内 部 minutil, Be)DRA f, bh Mt "d. 
间 。FOSHUD9 算 法 考虑 物品 的 现货 时 间 段 , 以 及 具有 正 / 负 项 
的 物品 。 该 算法 使 用 效用 列表 和 深度 优先 搜索 ， 同 时 在 所 有 元 ; 在 事务 ts 
时 段 挖掘 HUIS。HUPNUU07 算 法 在 不 确定 数据 库 中 ， 依 赖 于 HER AC 的 效 

有 正 项 和 负 项 的 概率 -效用 列表 来 直接 挖掘 HUIs 而 无 须 生  u(8C)=1x30+1x25=55， 
成 和 测试 候选 项 。 

近年 来 ,用 于 挖掘 HUIM 的 关键 技术 得 到 了 广泛 的 研究 。 “是 事务 如 和 如 效 

UDHUP-Apriori08] 算 法 以 一 种 水 平 的 方式 挖掘 最 新 的 高 效用 元 ， 项 集 CD 


模式 ， 使 用 类 


快 了 挖掘 过 程 。 


算法 ， 在 不 生成 候选 列表 的 情况 下 减少 计算 量 
加 快 了 计算 速度 。 
效用 度量 ， 以 简化 一 组 序列 中 子 序列 的 效 ) 
有 效 的 序列 效用 


举 树 和 2- 项 集 ， 


上 限 模型 ， 


以 于 Apriori 的 方法 递归 
DAME PMNS 


还 设计 J 


list, gutility-list), 


一 种 有 效 的 基 
子 序列 。CHUMP1 算 法 采 
每 个 项 集 都 包含 这 种 


是 数据 库 垂直 


表示 , Fi 


本 文 的 主要 贡献 如 下 : 


a) 本 文 是 对 高 效用 关键 技术 的 
式 对 其 进行 分 析 、 
b) 本 文 深入 ， 全 面 地 


总 结 ; 


wy =A $ 


Euri SIG 


u(A)=2x 
项 集 


中 u(AC,ts)-1x1 


SHURA 


E HUIs， 从 而 加 
Rd AIS HULIist-INSU? 


PHUSC90 算 法 提 


， 还 采用 了 枚 
出 了 最 大 


评 


估 ， 


采用 了 


以 避免 挖 所 
映射 的 修剪 策略 ， 
用 广义 效用 列表 (generalized utility- 
结构 ,该 效 | 
明 的 闭 包 并 有 效 地 生成 候选 项 。 


全 面 综述 


总 结 了 该 领域 的 发 展 ， 


概念 、 公 式 以 及 对 相关 概念 进行 了 比较 说 明 ， 


c) 基 


不 同 的 角 
于 映射 ， 


为 文献 [22] 
对 关键 技术 的 更 深入 的 了 解 和 介绍 


度 详 细 介 绍 了 基于 Apriori, 


是 到 了 


基于 垂直 /水 平 数据 和 基于 索引 


Br AK B. 


以 


介 


给 出 了 应 
HUPM 的 关键 技术 ， 所 以 本 文 是 


ADAM fi BAT J 


从 不 同 的 算法 中 ， 
基于 树 ， 基 于 列表 ， 基 
的 方法 。 


该 算法 


产生 更 准确 的 


列表 结构 


， 并 以 系统 的 方 


绍 了 HUPM 的 
用 示例 。 


以 


个 方 


数据 流 和 增 量 数 ] 
面 进行 描述 ， 即 基 了 


s perpe 


模式 的 


于 滑动 窗 


口 模型 的 方 


过 
N 
ly LI 


YE, SEF wy TA Ee) 
1 BARA 


WI = fide 


I ER 


成 模型 


i) EAM, D-(n.n.- 


Hà 


于 地 WNÉ 


O 


T,) 是 事务 数据 库 ， 


模型 的 方法 。 


AC RET 3 次 。 在 事务 nm, 
u(AC,t1)-2x104-25-45 元 ; 在 事务 b 


1 中 每 行 的 值 表示 在 特定 事务 
部 事务 效用 )。 最 后 一 列 显 示 了 


了 2 个 4, 1 个 C 和 1 个 D， PAT 
项 A 的 效用 u(4,t1)=2x10=20 元 。 在 整个 


10+2x10+1x10=50 元 。 在 事务 


rH, u(4C,t2)=2x10+25=45 
0+25=35 元 ; 在 整个 数据 库 中 


| u(AC)=45+45+35=125 元 。 假 设 minutil 73 80, 
u(CD)- 
Alt, Wise CD 是 HUIs, 而 项 集 BC 不 是 HUIs. Wi BI TWU 
JR, TWU(B)etu(t2)*tu(ta)* 7530-105 
的 TWU 是 事务 n 和 on 效用 的 总 和 ， 


1x25+1x35+1*25+1*35=120. 


TWU(CD)=tu(t1)+tu(ts)=80+60=140 元 。 


表 1 事务 数据 库 


Tab.1 Transaction database 


TID ABCD Transaction utility(yuan) 
t 2.01 I1 80 
t 2110 75 
ts 00 1 1 60 
t4 0100 30 
ts 1010 35 
K2 效用 表 
Tab.2 Utility table 
Item Profit(yuan) 
A 10 
B 30 
C 25 
D 35 


2 ”高 效用 模式 挖掘 关键 技术 


近 几 年 ， 研 
HUPM。 本 章 选 择 一 些 经 


完 者 们 已 经 提 


出 了 大 量 的 算法 从 数据 中 挖掘 


算法 ， 根 据 不 同 的 挖掘 原则 和 


技术 进行 分 类 。 
分 为 以 下 几 类 ; 


的 ， 


有 代表 性 的 、 最 新 的 HUPM 
到 的 关键 


数据 结构 ， 对 算法 


ium. N 


了 便于 讨论 ， 本 章 将 这 些 工 作 


a) 基于 先 验 (Apriori) 的 方法 ; 
b) 基于 树 (tree) 的 方法 ; 
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c) 基于 映射 (projection) 的 方法 ; 利用 这 一 属性 ,在 每 个 级 别 生 成 的 候选 项 集 的 数量 大 大 减少 ， 
d) 基于 列表 (list) 的 方法 ; 搜索 空间 也 会 减 小 。PHUI-UPP5] 算 法 基于 类 似 Apriori 的 方 
e) 基于 垂直 (vertical)/ 水 平 (horizontal) 数 据 格 式 和 索引 法 和 设计 的 上 限 模型 挖掘 潜在 高 效用 项 集 (potential high- 
(index) 的 方法 。 utility itemsets, PHUIs)。 在 不 确定 数据 库 中 ， 该 算法 可 以 在 未 来 
2.1 基于 先 验 (Apriori) 的 方法 的 工作 中 被 研究 人 员 用 作 最 先进 的 算法 之 一 。 随 着 HUPM 研究 
研究 人 员 提 出 了 一 个 众所周知 的 向 下 闭合 属性 ， 也 称 为 的 不 断 发 展 ,基于 Apriori 方 法 也 被 用 于 挖掘 闭合 项 集 .CHUDP9 


Apriori23] 属 性 ， 该 属性 指定 频繁 项 集 的 所 有 非 空子 集 都 必须 算法 基于 Two-PhaseD] 算 法 ,该 算法 在 第 一 阶段 提取 可 能 的 高 效 
是 频繁 的 ， 而 一 个 不 频繁 项 集 的 任何 超 集 都 不 是 频繁 的 。 闭合 项 集 的 集合 ， 并 在 第 二 阶段 计算 该 集合 的 实际 效用 信息 。 
为 了 将 Apriori 的 向 下 闭合 性 质 应 用 于 效用 问题 ,研究 者 总 之 ， 所 有 的 HUPM 方法 都 改进 了 基于 Apriori 的 
们 设计 了 Two-Phasetl 算 法 ， 并 引入 了 TWDC 和 TWU 的 两 算法 。Apriori 使 用 逐步 的 候选 项 生成 和 测试 方法 。 优 点 是 使 
个 属性 来 发 现 HUIs。 在 第 一 阶段 , 该 算法 使 用 候选 项 先生 成 ] Apriori 方法 可 以 删除 大 量 候选 对 象 , 提高 挖掘 有 用 模式 的 
后 测试 策略 来 查找 所 有 TWU 不 小 于 minutil 的 项 集 。 然 后 ， 效率 ， 并 且 在 恢复 所 有 HUI 方面 也 具有 良好 的 性 能 ， 例 如 算 
在 第 二 阶段 ， 该 算法 扫描 数据 库 以 查找 在 第 一 阶段 找到 的 项 Y% Two-Phasel'/fü CHUDP9， 还 可 以 减少 重新 处 理 整个 更 新 


SE 


集 的 实际 效用 值 。TWTU 属性 不 仅 限制 了 搜索 空间 , 还 涵盖 了 数据 库 的 时 间 ， 例 如 算法 FUPUS, (as, FEF Apriori 的 算 
所 有 HUIs 。 法 也 有 很 多 缺点 ， 例 如 多 次 数据 库 扫 描 ， 例 如 算法 Two- 
随 着 相关 研究 人 员 的 不 断 钻研 ,探索 了 基于 Apriori 方法 Phasel!!jl PHULUPC25。 由 于 在 阶段 I 中 生成 了 大 量 候选 集 ， 


的 其 他 高 效 ) T, 例如 高 效用 平均 模式 和 高 效用 闭合 模式 。 忆 此 消耗 了 大 量 内 存 ， 例 如 算法 CHUDP4 和 FUPP*, 具体 算 
FUPP4 算 法 采用 向 下 闭合 属性 ， 逐 级 搜索 高 效用 平均 项 集 。 法 如 表 3 所 示 。 


表 3 基于 Apriori 的 HUPM 算法 
Tab.3  Apriori-based HUPM algorithm 


算法 名 称 HUIs 类 型 数据 集 优点 缺点 
测试 后 将 搜索 候选 级 别 ,并且 需要 多 次 妆 
i TACIGEHERUK, | 除了 大 量 候选 项 . 测试 后 将 搜索 候选 级 别 ， 并 且 需 要 多 次 数据 
Chain-store 库 扫描 。 
FUP?(2009) 平均 项 集 Chain-store 减少 重新 处 理 整 个 更 新 数据 库 的 时 间 。 生成 大 量 候选 项 。 
它 可 以 减少 大 量 不 需要 的 HUIs。 此 外 , 该 算法 消耗 大 量 内 存 ， 并 且 在 事务 交叉 点 中 
Mushroom, Foodmart, M : = "T ET 
CHUDPa(2011) “闭合 项 集 当 可 以 恢复 所 有 HUIs 时 , 本 文中 提 到 的 消耗 更 多 的 运行 时 间 。 当 存在 大 量 候选 高 效 
BMSWebView1, T10I8D200K (Se : 
组 合 优 于 当前 的 最 新 算法 。 项 集 时 ， 算 法 会 降低 性 能 。 


P T10I4D100K, Foodmart, E £ " ia LM ae 
PHUI-UPP3(2016) 潜在 项 集 . . 对 于 不 确定 的 数据 库 ， 这 是 一 个 改进 。 存在 重复 扫描 数据 库 的 问题 。 
Accident, Retail 


2.2 ”基于 树 (tree) 的 方法 算法 比 使 用 单个 minutil 更 灵活 ， 更 现实 。dHAUIMB23 算 法 使 
尽管 Apriori 方法 可 以 有 效 地 挖掘 HUIs， 但 是 存在 诸如 j 一 种 称 为 IDUL 前 组 树 的 新 结构 ， 通 过 递归 过 程 快速 计算 


生成 大 量 候选 项 ， 反 复 扫描 数据 库 以 及 运行 缓慢 等 问题 。 为 项 集 的 平均 效用 和 效用 上 限 ， 以 维持 较 高 的 效用 平均 项 集 。 
了 避免 这 些 缺 点 ， 提 出 了 基于 树 的 HUIM 算法 。 这 些 基于 树 ”基于 高 效用 平均 模式 ,研究 人 员 提 出 了 MAU-GrowthP3] 算 法 ， 


的 算法 包括 三 个 步骤: 1) 构 建树 ，2) 使 用 算法 从 树 生 成 候选 ”该 方法 应 用 MAUTree 从 数据 库 中 挖掘 高 效用 平均 的 稀有 模 
HUIs; 3) 从 候选 集中 识别 HUIs。 式 。 该 算法 考虑 了 模式 的 长 度 ， 以 便 有 效 地 减少 模式 对 其 自 
基于 树 的 方法 广泛 用 于 静态 数据 库 中 。UP-Growthp27 和 身长 度 的 依赖 性 ， 以 便 挖 掘 比 以 前 算法 挖掘 的 模式 更 有 意义 
UP-Growth+P8 可 以 通过 一 种 改进 的 高 估 方 法 来 减少 要 提取 的 稀有 模式 。REPTB4 算 法 通过 挖掘 前 上 个 HUIS， 大 大 减少 
的 候选 项 的 数量 ， 它 们 需要 两 次 数据 库 扫描 来 建立 自己 的 树 了 候选 项 的 数量 。 该 算法 采用 三 种 策略 构建 全 局 树 和 增加 最 
结构 ， 即 UP-Tree。UFCP-Minerts! 算 法 是 根据 UP-Growth 算 小 阅 值 ， 有 效 地 减少 搜索 空间 。 
法 改进 的 ， 将 频率 因素 和 效用 因素 同时 考虑 进 高 效用 模式 挖 随 着 大 数据 时 代 的 到 来 ， 研 究 人 员 已 使 用 基于 树 的 方法 
据 中 。 通 过 两 次 扫描 数据 集 计算 效用 值 ， 并 将 事务 项 集 整理 来 解决 增 量 数据 库 和 数据 流 中 的 问题 IHUPBI 算 法 是 HUPM 
到 UFCP-Tree 上 。CTU-PROP9] 算 法 通过 从 底部 到 项 部 遍历 中 用 于 解决 增 量 数据 库 挖掘 的 最 先进 的 算法 之 一 。 它 使 用 单 
压缩 的 效用 模式 (compact utility pattern,，cup) 树 来 挖掘 HUIs 。 个 通道 构造 自己 的 树 结构 ， 称 为 [HUP-Tree， 并 根据 传统 芯 
TWU 概念 用 于 修剪 CTU-PRO 中 的 搜索 空间 , 但 是 避免 了 是 查找 所 有 HUIs。 然 而 ， 由 于 该 方法 的 应 用 ， 它 产生 
新 扫描 数据 库 以 确定 HTWUIs 的 实际 效用 。 该 算法 通过 构建 了 大 量 的 候选 项 。 MAHUSPB35 算 法 设计 了 一 种 有 效 的 树 结构 ， 
可 在 磁盘 上 独立 挖掘 的 并 行 细 分 来 适应 较 大 的 数据 集 。. 近 来 ， BJ MAS-Tree， 用 于 在 数据 流 上 存储 潜在 的 HUSP。 该 算法 不 
己 经 开发 了 许多 新 颖 的 树 结构 以 改善 挖掘 的 HUPM 的 性 能 。 仅 可 以 有 效 地 发 现 数 据 流 上 的 HUSP， 而 且 在 牺牲 所 发 现 的 
USpanP?| 算法 使 用 序列 加 权 效 用 (sequence-weighted 质量 的 前 提 下 适应 了 内 存 分 配 。 从 研究 人 员 的 不 断 发 现 中 ， 
utilization, SWU) 和 序列 加 权 向 下 闭合 属性 (sequence- 现 有 算法 需要 多 次 数据 库 扫 描 以 挖掘 HUIs, 这 会 降低 其 效率 。 
weighted downward closure property, SDCP) 构 造 了 词典 顺序 序 HUM-UTB9 算 法 用 于 从 事务 数据 流 中 查找 HUIs, 并 提出 了 
列 树 (lexicographic quantitative sequence tree, LQS-tree) 结 构 ， 种 新 的 数据 结构 UT-Tree。 该 结构 是 通过 数据 库 扫描 创建 的 ， 
然后 提取 完整 的 HUSP(high utility sequence pattern)  HIMUP! 并 且 效 用 信息 仅 存储 在 尾 节 点 上 ， 以 维护 事务 中 项 集 的 效用 
算法 使 用 多 个 minutils 来 挖掘 HUIS， 提 出 了 多 个 项 效用 集合 信息 ， 以 避免 进行 多 次 数据 库 扫描 。 
枚 举 树 (multiple item utility Set-enumeration，MIU-tree) 以 及 在 MAHUSPB5] 算 法 中 ， 实 验 都 用 Java EI, FEHER 
MIU-tree 中 HUIs 的 全 局 和 条 件 向 下 闭合 (global downward ”有 16GB RAM 的 Intel(R)i7 2.80GHz 计算 机 上 进行 的 。 假 设 
closure, GDC 和 conditional downward closure, CDC) 属 性 。 访 eHUSP 是 真实 的 高 效用 序列 模式 集 ，appHUSP 是 返回 的 高 
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效用 序列 模式 的 近似 集 ，ApproxUtil(P) 被 用 作 模 式 的 近似 效 返回 的 模式 的 平均 长 度 接近 通过 精确 方法 获得 的 模式 的 平 
FA, Tf TureUtil(P) 为 模式 的 真正 效用 。 使 用 以 下 性 能 指标 来 KE. 
评估 算法 的 有 效 性 : g) Run Time: 方法 在 输入 数据 流 上 的 总 执行 时 间 。 

a) Precision: 数据 流 的 平均 精度 : h) Memory Usage: 该 方法 的 内 存 使 用 情况 。 


nog 


precision = ÉPPHUSPSCIeHUSP| (5) 总 而 言 之 ， 基 于 树 的 算法 的 优势 在 于 ，a) 对 于 包含 密集 

appHUSPs 数据 集 和 长 模式 稀疏 数据 的 较 大 数据 集 的 性 能 更 好 ， 例 如 算 

b) Recall: 数据 流 的 平均 召回 值 : 法 CTU-PROU?I; b) 可 以 有 效 减 少 候选 对 象 的 数量 , 避免 重复 
el_lappHUSPsmeHUSB| ©) 扫描 数据 库 ， 例 如 算法 UP-Growth?", UP-Growth-P!, 

eHUSP REPTB64，HIMUP0 和 HUM-UTB9 等 ; c) 树 结构 中 使 用 的 树 节 
c) F-Score: 精度 和 查 全 值 的 调和 平均 值 : 点 数量 很 少 ， 并 且 适 合 于 内 存 分 配 ， 例 如 算法 IHUPD), 

F -Score : 2x Precisionx recall (7) MAHUSPB5。 尽 管 这 些 树 结构 通常 很 紧凑 ， 但 它们 可 能 不 是 

Precision+ Tecall 最 小 的 ， 仍 然 会 占用 大 量 存储 空间 。 这 些 方法 的 挖掘 性 能 与 

d) AvgTrueUtil; 该 方法 返回 的 模式 的 平均 实际 效用 。 整个 挖掘 过 程 中 构造 的 条 件 树 的 数量 以 及 构建 /遍历 每 个 条 
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e) Relative Utility Error: 是 通过 与 方法 返回 的 模式 的 确  ” 件 树 的 成 本 密切 相关 。 因 此 ， 这 些 算法 的 性 能 瓶颈 之 一 是 生 
切 效用 进行 比较 而 得 出 的 平均 效用 错误 : 成 大 量具 有 高 时 间 和 空间 成 本 的 条 件 树 。 人 缺点 有 : a) 生 成 了 
大 量 候 选项 ， 例 如 算法 CTU-PROP9 和 IHUPD]; 
储 最 小 节点 效用 需要 花费 时 间 和 内 存 ， 例 如 算法 UP- 
Growth?7], c) 树 结构 的 处 理 过 程 非常 耗 时 , 例如 算法 REPTB4， 
HIMUD20, HUM-UT664 和 MAHUSP65。 具 体 算法 如 图 1 所 示 。 


x ApproxUtil( P) — TrueUtil( P) 
PeappHUSPs TrueUtil( P) ( 8) 
|appHUSPs| 


f) AvgLength: 平均 长 度 ， 该 方法 使 用 此 度量 标准 ， 指 示 


relativeutilityerror — 


CTU-PROP9(2008): 

1. 树 的 名 字 : CUP-Tree 
(Compressed Utility Pattern Tree 
压缩 效用 模式 树 ); 

2. 树 的 结构 : 每 个 节点 都 包含 映射 
项 的 id 和 该 节点 处 模式 的 TWU 值 数 
组 ， 每 个 数组 都 有 一 个 指向 关联 数 
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UP-Growth""(201 0): 

1. 树 的 名 字 : UP-Tree (Utility 
Pattern Tree 效用 模式 树 ); 

2. 树 的 结构 : N.name: 节点 的 项 名 称 ; 
Ncount: 节点 的 支持 度 计数 ; 


Nau: 节点 效用 ， 是 节点 的 估计 效 


UP-Growth 472012): 
1. 树 的 名 字 : UP-Tree (Utility 
Pattern Tree 效用 模式 树 ); 
2. 树 的 结构 : 前 5 个 与 UP-Growth 中 
的 树 结构 相同 ; 

N.mnu; N 的 最 小 节点 效用 ; 
3. 数 据 集 : Accidents, Chess, Chain- 
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Nparent: 节点 的 父 节点 ; 


的 指针 ; Nhlink: 节点 链接 ， 指 向 与 N.name 相 同 的 节 store, Foodmart; — 

3. 数据 集 : Modifed Retail, Modifed — 点 ; E ii i x MR n ML 
BMSPOS, TIONSDIOOK, . ; 选项 的 数量 ， 尤 其 是 

TSNSDXM; 3 数据 集 : BMS-Web-View- 含 大 量 长 事务 时 ; 检查 和 存储 最 


1、Chess、T10I6D100K; N 
1 、 ; 5 点 效用 需 时间 和 
4. 优 点 和 缺点 : UP-tree 更 加 紧凑 和 强大 ， 减 少 了 2 人 


候选 项 的 数量 ; 如 果 min_util 很 小 ， 则 UP-Growth 
只 会 表现 更 好 。 这 是 因为 当 UP-Growth 和 UP- 
Growth + 的 候选 数 相似 时 ，UP-Growth + 进行 的 计 
算 更 多 ， 因 此 速度 较 慢 。 


4 优点 和 缺点 : 在 稀疏 数据 集运 行 
的 性 能 更 好 ; 产生 太 多 候选 项 。 


静态 数据 库 — 


Uspan® "(2012): REPTB4(2014): HIMU” "(201 6): 

1. 树 的 名 字 : LQS-tree(lexicographic 1. 树 的 名 字 : 和 UP-Growth 运 用 的 1. 树 的 名 字 : (MIU)-tree(multiple 

quantitative sequence tree 字典 顺序 树 一 样 ; item utility tree 多 项 效用 树 ); 

序列 树 ); 2. 树 的 结构 :和 UP-Growth 运 用 的 2. 树 的 结构 : N.name: 节点 的 项 名 

2. 数 据 集 : Online shopping 树 一 样 ; 称 ; 

transactions, Mobile communication 3 数据 集 : Accidents: Chéin:stote. Nhlink: 指向 其 扩展 项 集 的 节点 
E transactions ; f i : HÀ Eb 链接 ; 

: STIS ay Mush: , Retail; ; 

树 3. 优 点 和 缺点 : 可 以 以 极 低 的 效用 4 优点 和 多 点 ”法 少 搜索 空间 并 大 3. 数 据 集 : Foodmart, Mushroom; 
8 从 大 规模 数据 中 有 效 地 识别 HUSP; 大 减少 了 生成 的 候选 模式 的 数 A 优点 和 缺点 ; 避免 重复 扫描 数据 
x a MORSENBA ERARE — 量 ， 运行 时 间 增加 。 库 ;处 理 树 非常 耗 时 。 
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MAHUSFPP?(201 7): 
1. 树 的 名 字 : MAS-Tree (memory 
adaptive high utility sequential 


pattern tree 内 存 自 适应 高 效用 序 模 


THUP"!(2009): 

1. 树 的 名 字 : IHUPL-Tree 
(Incremental High Utility Pattem 
Lexicographic Tree 增 量 高 效用 模式 


HUM-UT""(201 3): 

1. Tree name: UT-Tree(Utility on 
Tail Tree 效用 尾 树 ); 

2. 树 的 结构 : 内 部 节点 ; CD 项 名 


式 树 ); 
字典 树 )， 称 ，〈2) 指向 父 节点 的 指针 ， 和 v . 
IHUPTF-Tree(Incremental High (3) 指向 子 节点 的 指针 的 列表 ; e d tie lop 
Utility Pattern Transaction Frequency 尾 节 点 : (1) 项 名 称 ， (2) 指 atti. 到 目前 为 止 PAN 的 部 
Tree 增 量 高 效用 模式 事务 频率 树 )， 向 父 节 点 的 指针 ， (3) 列表 分 数据 流 中 SN 的 近似 效用 ， 
IHUPTWU-Tree (Incremental High 。 指向 子 节点 的 指针 ， 以 及 (4) 每 nodes: SNARARE 《将 在 
Utility Pattern-Transaction-Weighted 批 效 用 信息 的 列表 ; 下 一 节 中 定义 并 在 内 存 适 配 中 使 
增 量 数据 库 和 Be 3. 数 据 集 : Retail, T1014D100K; T 
数据 流 结构， on 站 占 的 4. 优 点 和 缺点 : 该 算法 不 需要 额外 3. 数 据 集 : Kosarak, Chain Store, 
T names RAS 的 数据 库 扫描 ， 并 且 在 不 同情 况 DIOKCIOT3S412NIK, dd 
e . 下 更 加 稳定 ; 处 理 树 非常 耗 时 。 D100KC8T3S4I2N10K:; 
全 WIRA: 4 优点 和 缺点 ， 适应 内 存 分 配 ; 浪 
ti: 事务 频率 ; 费时 间 
3. 数 据 集 : Mushroom, Retail, ji. 
Kosarak, Chain-store; 
4. 优点 和 缺点 : 树 中 的 节点 数量 相 
对 较 少 ; 生成 大 量 候选 项 并 消耗 大 
量 计算 时 间 来 识别 实际 模式 。 


图 1 基于 树 (tree) 的 HUPM 方法 
Fig. 1 Tree -based HUPM method 
以 独立 挖掘 的 并 行 投影 为 太 大 而 无 法 保存 在 主 存储 器 中 的 数 
据 集 创建 细 分 。TWU 的 反 单调 性 用 于 减 小 CTU-PROL F4 
性 能 ， 这 些 方法 已 广泛 用 于 数据 挖 。 ”分 的 搜索 空间 。 


2.3 ”基于 映射 (projection) 的 方法 
为 了 克服 基于 树 的 方法 的 缺点 ， 研 究 人 员 提 出 了 一 些 基 
于 映射 的 方法 来 提高 挖掘 


掘 中 。 总 体 思路 是 将 处 理 后 的 数据 库 递归 投影 到 一 些 较 小 的 基于 前 绥 的 投影 方法 ， 可 以 有 效 地 提高 效用 上 限 ， 并 可 
映射 子 数 据 库 中 。 然 后 在 每 个 映射 子 数据 库 中 ， 增 长 项 集 或 ”以 优化 挖掘 过 程 。PHUSP9 算 法 扩展 了 PrefixSpanP7,, 并 使 用 


THp BEP? 基于 投影 的 修剪 策略 来 实现 序列 效用 的 紧凑 上 限 。 并 且 提 出 
当主 内 存 不 足以 处 理 大 型 数据 集 时 ， 研 究 人 员 将 使 用 了 最 大 效用 度量 和 序列 效用 上 限 (sequence utility upper bound, 
时 方案 来 使 用 磁盘 存储 。CTU-PROLP9] 算 法 使 用 一 个 可 ”SUUB) 模 型 的 概念 。 因 此 ， 它 可 以 避免 考虑 过 多 的 候选 项 ， 
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而 可 以 使 用 SUUB 模型 来 提高 挖掘 HUSP 的 性 能 。 ， 并 将 减 小 数据 库 的 大 小 。EHNLE9 算 法 也 将 上 述 方法 以 及 负 
TKHUP_MaRts4 算 法 采用 前 绥 投 影 结构 ， 进 行 并 行 挖掘 。 即 。” 面 效用 和 长 度 限 制 应 用 于 挖掘 HUIs。EHINE2] 算 法 使 用 数据 
通过 两 次 扫描 数据 库 , 利用 三 次 MapReduce 来 实现 并 行 top- — 集 投 影 和 合并 技术 来 减少 内 存 需 求 并 加 快 挖 气 过程 的 执行 时 
k 高 效用 模式 的 挖掘 。 间 。 在 映射 数据 集 之 前 和 之 后 执行 两 次 事务 合并 。 这 些 技术 
在 实际 研究 中 ， 研 究 人 员 不 仅 使 用 映射 方法 来 挖 气 有效 “减少 了 搜索 空间 。ETKHUPto] 算 法 在 数据 库 投影 过 程 中 ， 应 

的 项 集 , 还 将 它们 与 事务 合并 相 结合 以 进一步 提高 挖掘 性 能 。 ”用 事务 排序 及 合并 策略 减少 运行 时 间 和 内 存 消耗 ， 从 而 高 效 


EFIM02 算 法 是 一 种 基于 单 阶段 映射 的 高 效用 算法 。 为 了 降 得 挖掘 Top-k 项 集 。 此 算法 设 定 的 minutil 由 用 户 指定 高 效用 
低 数 据 库 扫描 的 成 本 ，EFIM 还 提出 了 数据 库 投影 和 事务 合 ”模式 个 数 ， 而 不 是 人 为 设 定 阔 值 。 
方法 ， 即 高 数据 库 投 影 (high database projection, HDP) 和 高 总 之 ， 基 于 投 的 算法 具有 避免 重新 扫描 数据 库 并 减少 扫 
事务 合并 (high transaction merging, HTM)。 为 了 处 理 动 态 单位 描 成 本 的 优势 ， 例 如 算法 CTU-PROLP91，EFIMI2，CHNB? 
利润 数据 库 中 的 所 有 HUIs， 设 计 了 EFM 的 扩展 算法 “和 EHNLAJ，EIKHUPI5I。 在 基于 投影 的 修剪 策略 中 ， 可 以 
MEFIM63。 它 依靠 数据 库 投影 和 另 一 种 新 颖 的 紧凑 型 数据 库 获得 更 准确 的 子 序 列 序列 效用 上 限 ， 因 此 ， 修 剪 效果 和 执行 
格式 来 有 效 地 发 现 所 需 的 项 集 。CHNB9] 算 法 也 应 用 了 这 种 方 ” 效率 非常 好 ， 例 如 算法 PHUSP0。 缺 点 是 会 生成 大 量 元 余 候 
法 ， 并 引用 了 基于 子 树 的 修剪 策略 0， 该 策略 减少 了 修剪 搜 ”选项 ,例如 算法 CTU-PROLP2 ,PHUSPE0,CHNB23 和 EHNLCI。 
索 空 间 并 加 快 了 挖掘 过 程 。 在 研究 较 大 的 项 集 时 ， 投 影 和 合 LA SEE Bde 4 所 示 。 
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#4 基于 映射 (projection) 的 HUPM 方法 
Tab.4 Proiection-based HUPM algorithm 


算法 名 字 特定 方法 数据 集 优点 缺点 
ut Modifed Retail, Modifed BMSPOS, 避免 重新 扫描 数据 库 以 确定 高 事务 加 权 项 集 的 ”生成 了 大 量 候选 项 ， 并 且 算 法 使 
CTU-PROL'?(2008) 并 行 映 射 2 : NAT. 
TIONSDIOOK, TSNSDXM 实际 用 途 。 的 资源 可 能 很 高 。 
PHUSP0(2014) 基于 前 级 映射 S8T6I4N4KD200K 在 修剪 效果 和 执行 效率 上 均 表 现 出 色 。 生成 大 量 候选 项 。 
Connect, Pumsb, Accidents, 该 算法 验证 了 在 并 行 环境 下 挖掘 指定 数目 的 高 ”在 处 理 较 小 数据 集 时 ， 挖 掘 效率 
TKHUP MaRP4(2017) 基于 前 缀 映射 . z "M 
Chain store 效用 模式 的 有 效 性 及 正确 性 。 不 如 单机 模式 下 的 效率 。 
M | Accident, BMS, Chess, Connect, 消耗 的 内 存 更 少 ， 并 且 复杂 度 与 搜索 空间 中 的 “有 时 递归 映射 很 耗 时 ， 并 且 会 占 
EFIM!?(2017) ”映射 和 事务 合并 
Foodmart, Mushroom 项 数 大 致 成 线性 关系 。 大 量 内 存 。 
Accidents, Chess, Mushroom, Pumsb, 
" i 使 用 TWU 属性 ， 会 生成 大 量 元 余 
CHNP?(2018) WS AU SEAS A SE BMSPOS, Retail, kosarak, dE us Ai BE ERIR ifo ios 
选项 
T40110D100K, T10I4D100K ~ 
"M Accidents, Chess, Mushroom, . N ] 生成 大 量 候选 项 ， 映 射 有 时 会 浪 
EHNLP(2019) ”映射 和 事务 合并 数据 集 映 射 和 事务 合并 技术 可 降低 扫描 成 本 。 
T40I10D100K 费时 间 。 
ET : Chess, Mushroom, Connect, 减少 了 运行 时 间 和 和 内 存 消耗 ， 尤 其 适用 于 密 . 
ETKHUP!?(2019) 映射 和 事务 合并 TERES REE AE BEE o 
T25I10D10K, T2016D100K, Foodmart 集 数 据 集 。 
2.4 基于 列表 (list) 的 方法 iutil 和 rutil, Tid 代表 包含 也 的 事务 7; iutil fe XE TPH 


在 HUPM 中 ,除了 基于 树 的 方法 之 外 , 研究 人 员 还 探索 。 效用 ， 即 iuti(X,T); rutil 是 XX 在 7 中 的 剩余 效用 ， 即 rutil(X, 

了 基于 列表 (lisb) 的 方法 。 挖 掘 步骤 如 下 : 1) 对 数据 库 执行 扫 T 
描 ， 以 为 每 个 项 集 构建 效用 列表 ; 2) 再 次 扫描 数据 库 ， 在 效 F 效用 列表 的 引入 , 许多 算法 使 用 此 结构 来 挖掘 HUIs 
用 列表 中 修改 事务 ; 3) 删除 小 于 minutil 的 项 集 ， 并 减少 搜索 从 而 提高 了 挖掘 性 能 。HULlist-INS09 算 法 继承 了 HUI- 
空间 。 基 于 列表 的 方法 可 以 清楚 地 维护 有 关 事务 中 项 集 的 信 Miner] 算 法 ， 并 构建 了 一 个 效用 列表 结构 ， 用 于 在 增 量 数 
rH 


据 
务 


息 ， 并 且 可 以 快速 计算 项 集 的 效用 ， 并 缩短 搜索 时 间 。 库 中 挖掘 HUIS， 以 维护 和 更 新 已 发 现 的 HUIs 以 及 进行 
HUI-MinerI 算 法 使 用 一 种 称 为 效用 列表 的 新 颖 结构 来 插入 。HUI-listDELI9] 算 法 是 一 种 通过 使 用 动态 数据 库 
存储 有 关 项 集 的 效用 信息 和 用 于 修剪 搜索 空间 的 启发 式 信息 。 除 的 记录 的 内 置 效用 列表 结构 来 发 现 HUIs 的 算法 。 在 这 种 
HUI-Miner 有 效 地 从 内 置 效用 列表 中 挖掘 HUIS， 从 而 避免 了 大 量 。 算法 中 ,可 以 直接 生成 新 的 HUIs, 而 无 须 生 成 候选 对 象 和 进 
候选 项 集 的 昂贵 生成 和 效用 计算 。 根 据 表 5 和 6, 在 第 二 次 数据 库 。” 行 大 量 的 数据 库 扫 描 。 


H 


导 描 期 间 , 该 算法 为 表 5 项 集 {4B} 和 表 6 项 集 {BC} 构 造 效 用 列表 。 随 着 HUPM 的 不 断 发 展 , 效用 列表 已 无 法 满足 算法 的 需 
表 5 项 集 {AB} 的 效用 列表 求 。 研 究 人 员 根 据 效 用 列表 提出 了 许多 扩展 结构 ， 以 进一步 
Tab.5 Utility list for itemset {AB} 提高 性 能 .HUP-Minerl44 算 法 引入 的 分 区 效用 列表 数据 结构 ， 
Tid Iutil Rutil 此 结构 借鉴 了 tid-listt*$ 表 示 的 基本 思想 。 它 也 是 效用 列表 的 
30 40 扩展 。 通 过 执行 项 集 Rx 和 Ry 的 tid-list 的 交集 来 计算 项 集 
4 50 40 Rey 的 分 区 效用 列表 。 这 个 过 程 与 HUI-Miner 中 算法 非常 相似 
5 30 30 该 算法 使 用 的 LA-Prune( 基 于 正 向 修剪 概念 ) 策 略为 个 项 集 
表 6 项 集 {BC} 的 效用 列表 提供 了 更 严格 的 效用 上 限 ， 因 此 可 以 修剪 大 量 低 效用 项 集 ， 
Tab.6 Utility list for itemset {BC} 从 而 限制 了 挖掘 HUIs 的 搜索 空间 。CHUI-Miner0 算 法 使 用 
Tid Iutil Rutil 扩展 效用 列表 (extend utility list, EU-List) 的 新 结构 来 维护 事 
3 50 40 务 中 项 集 的 效用 信息 ， 这 使 得 原始 数据 库 不 会 被 扫描 ， 并 有 
5 50 0 效 地 计算 了 内 存 中 的 项 集 效用 和 效用 单位 数组 。 该 算法 使 用 
项 集 X 的 效用 列表 中 的 每 个 元 素 都 包含 三 个 字段 : tid， 分 而 治之 的 方法 来 挖掘 数据 库 中 完整 的 CHUI 集 ， 而 不 生成 
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候选 对 象 。CHUMIC 算 法 提出 了 一 个 通用 效用 列表 扩展 了 占用 率 以 评估 事务 数据 库 ， 为 效用 挖掘 提供 了 新 的 研 
(generalized utility-list, gutility-list), 用 于 存储 效用 信息 和 有 关 究 视 角 ， 例 如 算法 HUOPMI491。 因 此 ， 尽 管 大 多 数 基于 列表 
搜索 空间 修剪 的 启发 式 信息 ， 这 与 HUI-Miner? 算法 中 提出 的 方法 可 以 加 快 挖掘 速度 ， 并 且 在 稀 玻 和 密集 的 数据 库 上 
的 效用 列表 不 同 ， 因 为 gutility-list 可 以 快速 计算 闭合 项 集 的 有 良好 的 性 能 ， 但 缺点 是 列表 之 间 的 连接 需要 高 昂 的 成 本 ， 
效用 。ULB-Minerl4g 算 法 使 用 设计 的 效用 列表 缓冲 区 结构 来 耗 时 的 时 间 以 及 过 多 的 内 存 使 用 等 。 例 如 ， 在 HUI-Miner? 
效 存 储 和 检索 效用 列表 ， 并 在 挖掘 过 程 中 重新 使 用 内 存 。 中 ，(k+1) 项 集 的 效用 列表 和 项 集 的 效用 列表 之 间 的 连接 非 
线性 时 间 方 法 还 用 于 在 效用 列表 缓冲 区 中 构造 效用 列表 段 。 常 耗 时 ， 导 致 运行 时 间 较 长 。 基 于 效用 列表 的 扩展 结构 或 其 
LHUI-Minert47l 算 法 的 目标 是 根据 局 部 效用 表 (local utility list, 他 列表 结构 ， 存 在 诸如 复杂 的 构建 过 程 的 问题 ， 有 具体 有 必须 
LUIlist) 发 现 局 部 高 效用 项 集 (local high utility itemsets, LHUIs)。 显示 占用 大 量 内 存 的 数据 集 分 区 的 数量 ， 构 造 列表 的 过 程 更 
由 于 项 集 的 效用 随时 间 变 化 ， 因 此 希望 找到 一 个 时 间 点 ， 在 加 复杂 ; 动态 调整 参数 具有 挑战 性 , 例 如 算法 HUP-Minerl44], 
这 些 时 间 点 , 项 集 的 效用 会 显 着 变化 (增加 或 减少 )。 因此 , 扩 ” ULB-Minert*sl,，LHUI-Minert47]。 算法 如 图 2 所 示 。 

展 的 PHUIM"! 算 法 挖掘 高 峰 期 的 高 效用 项 集 。 它 包括 一 个 时 2.5 基于 数据 格式 (data format) 的 方法 

间 段 ， 在 该 时 间 段 中 ， 查 找 项 集 具 有 很 高 的 效用 。 另 外 ， 由 为 了 克服 上 述 方法 的 缺点 ， 研 究 人 员 最 近 提 出 了 基于 水 
于 PHUIs(peak high utility itemsets) 的 集合 可 能 很 大 ， 并 且 平和 垂直 数据 结构 以 及 索引 结构 来 挖掘 HUIs。 一 方面 可 以 加 
PHUIs 中 的 某 些 项 对 其 峰值 的 贡献 不 大 ， 因 此 NPHUI- 快 数据 挖 掘 的 进度 ， 另 一 方面 可 以 提高 挖掘 的 性 能 。 
Miner[1 算 法 用 于 挖掘 一 组 非 元 余 的 峰值 高 效用 项 集 。 水 平 数据 结构 是 最 基本 的 数据 结构 ,运用 在 很 多 算法 中 。 
MHAIISI 算 法 提出 了 一 种 新 的 列表 结构 ， 称 为 高 效用 平均 项 UtilityLevel55 算 法 采用 了 水 平方 向 的 候选 生成 和 测试 机 制 
集 列表 (high average itemset list, HAI-Lisb)。 这 种 结构 可 以 紧 ”挖掘 HUSP。 因 此 ， 它 生成 大 量 候选 序列 并 需要 多 次 数据 库 
闭 地 捕获 必要 的 信息 ， 从 而 允许 算法 从 给 定 的 事务 数据 库 生 扫描 。SPHUITP59 算 法 以 水 平方 式 挖掘 短期 高 效用 模式 。 这 
成 HAUIs， 而 无 须 生 成 候选 集 。HUOPMI 算法 在 频率 ， 效 些 模 式 定期 出 现 , 有 利 可 图 , 并且 在 约束 期 间 可 以 高 效 使 用 。 
用 和 占用 率 方面 考虑 了 用 户 偏 好 。 该 算法 使 用 效用 占用 列表 与 Eclat57 算 法 挖掘 频繁 项 集 一 样 ，HUI-Miner[] 算 法 提 
(utility-occupancy list, UO-list) 和 频率 效用 表 (frequency-utility 出 了 具有 垂直 数据 结构 的 表 结 构 。 该 算法 首先 通过 构造 效用 
table, FU-table) 来 存储 有 关 数 据 库 的 信息 ,以 挖掘 高 效 占 用 模 列表 来 检查 所 有 1- 扩 展 项 集 ， 然 后 在 从 扩展 集合 中 识别 并 输 
式 (high utility occupancy pattern, HUOP)。 所 提出 的 方法 可 以 出 HUIs 之 后 ， 逐 个 递归 地 处 理 有 希望 的 扩展 项 集 并 放弃 其 
效 地 发 现 完整 的 HUIs 集 ， 而 无 须 生 成 候选 对 象 。 他 扩展 项 集 。FHM09 算 法 是 HUI-Miner[ 算 法 的 一 个 增强 版 
DMHUPS60 算 法 利用 IUData-List 的 数据 结构 ， 该 结构 存储 本 ， 运 用 同样 的 垂直 数据 结构 ， 加 快 挖 据 进 程 。CHUMR?1 算 
1- 项 集 的 信息 及 其 在 事务 中 的 位 置 ， 以 有 效 地 获取 初始 数据 法 采用 数据 库 垂 直 表 示 ， 以 便 在 不 访问 数据 库 的 情况 下 加 速 
库 。 另 外 ， 该 算法 同时 计算 多 个 有 和 希望 的 候选 项 的 效用 ， 从 生成 项 集 闭 包 并 计算 其 效用 信息 的 执行 时 间 ， 有 有效 地 生成 
而 获得 更 严格 的 扩展 上 限 ， 避 免 了 生成 元 余 项 ， 并 找到 多 个 订单 保留 生成 器 。MHUIIL4 算 法 用 于 有 效 挖掘 具有 多 个 
效 模式 。CRUSP60 算 法 应 用 了 删除 效用 列表 (removed- minutil 的 HUIS。 所 提出 的 算法 利用 垂直 数据 库 表 示 来 有 效 
utilities list, RUL) 和 删除 效用 位 置 列 表 ( 人 removed-utility- 地 存储 项 集 信息 ， 并 且 引 入 了 后 级 最 小 效用 (suffix minimum 
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positions list, RUPL)。 此 列表 指定 了 唯一 需要 考虑 的 项 , 它们 utility, SMU) 的 新 概念 ， 以 高 效 地 挖掘 HUIs 。 
可 以 作为 所 讨论 的 顺序 模式 串联 的 可 能 候选 项 ， 或 在 搜索 树 ISR-MOEAG68 算 法 ， 是 一 种 基于 索引 集合 表示 的 多 目标 


中 显示 为 后 代 的 任何 顺序 模式 。MUHUIG2 算 法 基于 概率 效用 列表 ”进化 算法 ， 用 于 挖掘 多 样 化 的 Top-k HUIs。 在 算法 中 ， 建 议 
(probabilistic utility list, PU-list) 结 构 ， 该 结构 可 以 直接 在 不 确定 的 数 使 用 索引 集合 个 体 表示 方案 来 快速 编码 和 解码 Top-k 模式 集 。 
据 库 中 挖掘 PHUIs, 而 无 须 生 成 候选 对 象 , 并 且 可 以 通过 有 效 的 修 。 IHUI-MineP?1 $1: fiit subsume zR 5| se MCAS fr s AN) HUIs 并 
前 策略 来 避免 为 许多 不 需要 的 项 集 构建 PU-list， 这 大 大 提高 了 性 侈 剪 搜索 空间 。HULMMUI@G] 算 法 用 于 挖掘 具有 多 个 minutil 
能 。FHND3 算 法 依靠 一 种 新 颖 的 列表 结构 ， 即 正 负 效 用 列表 ”的 HUIs。 改 进 的 HULMMUTIDI6 算 法 ,基于 TID 索引 策略 ， 
(positive and negative utility list, PNU-lisD， 同 时 考虑 了 正面 和 负面 的 即 HUIMMUTID， 以 加 快 挖掘 过 程 。 
位 利润 ， 其 目的 是 维护 挖掘 HUIs 所 需 的 所 有 信息 ， 从 而 允许 算 总 而 言 之 , 基于 数据 格式 的 算法 的 优势 在 于 , 基于 水 平 或 
法 直接 挖掘 HUIs 而 不 生成 候选 对 象 和 无 须 执行 多 个 耗 时 的 数据 库 。” 垂直 表示 的 算法 可 以 大 大 减少 找到 的 模式 数量 , 有 效 地 识别 数 
习 描 。HUPNU07 算 法 基于 带 有 正 负 利 润 的 概率 -效用 列表 (positive — 据 库 中 的 HUIs， 并 避免 “稀有 项 目 问题 ?， 例 如 算法 
and negative utility list, PU 士 -lisb 挖 掘 HUIs 的 正 负 单位 利润 。 构造 SPHUTTP659，HULMMUTIDKUN。 基 于 索引 的 新 颖 算法 可 以 实 
PU+-list 时 , 可 以 修剪 许多 没有 预 设 的 早期 项 , 以 减少 搜索 空间 。 现 多 目标 进化 ， 并 探索 各 种 top-k 高 效用 模式 以 进一步 提高 用 
EHUSNIS] 算 法 提出 1-2-UM 和 2-2UM 结构 模型 挖掘 含 负 项 的 高 效 。” 户 满意 度 , 例如 算法 ISR-MOEAPSI, 缺点 是 需要 多 次 扫描 数据 
用 模式 , 结合 效用 信息 列表 能 快速 剪 枝 非 候选 序列 , 从 而 是 挖掘 算 ” 库 以 挖掘 HUIs, 并 且 内 存 消 耗 很 大 , 例如 算法 UtilityLevel55l， 
法 在 时 空 效 率 上 得 到 提升 .IMHUPG4 算 法 使 用 索引 效用 列表 (index = SPHUTTPDP9, CHUMP!I, HUI-MMUTIDISU; 挖掘 具有 多 个 最 
utility list, TU-list) 来 使 用 新 提议 的 项 联接 操作 更 有 效 地 发 现 HUTs， 小 效用 阔 值 的 HUIs 的 算法 可 能 对 minutil 的 选择 不 敏感 , 例如 
而 无 须 进行 任何 比较 。 算法 MHUIU49。 具 体 算法 见 表 T. 

总 而 言 之 ， 基 于 列表 的 算法 的 优点 有 : DHUI-Miner?! 

法 引入 了 剩余 效用 的 概念 和 垂直 数据 结构 的 效用 列表 .随后 ， 3 基于 数据 流 的 HUPM 的 方法 
许多 算法 使 用 效用 列表 结构 , 例如 HUI-list-INS09 和 HUI-list- 论文 的 前 三 章 提出 的 大 多 数 算法 都 适用 于 静态 数据 。 随 
DELIS3]， 它 们 可 以 减少 内 存 消耗 并 避免 多 次 数据 库 扫 描 ，2) ”着 物 联网 ， 云 计算 和 大 数据 等 技术 的 快速 发 展 ， 数 据 流 被 广 
扩展 的 效用 列表 结构 和 其 他 列表 结构 可 以 减少 内 存 消耗 和 效 。 泛 应 用 于 网 络 ， 外 贸 管 理 和 医学 数据 分 析 等 众多 领域 。 与 静 
用 列表 之 间 的 连接 操作 ,例如 算法 ULB-Miner[49,IMHUPG64， 态 数据 相 比 , 数据 流 具 有 一 些 独 特 的 属性 ,例如 到 达 速 率 快 、 
HUP-Miner9，MUHUIB523，3) 一 些 新 颖 的 算法 在 特定 时 间 段 不 受 限 制 以 及 无 法 回溯 先前 的 事务 。 因 此 ， 对 于 不 同 的 使 用 
内 可 用 于 挖掘 传统 HUIM 无 法 找到 的 模式 ， 从 而 减少 运行 时 的 ， 数 据 流 中 有 三 种 常用 的 模型 : 滑动 窗口 模型 ， 时 间 衰 
间 和 内 存 消耗 , 例如 算法 LHUI-Miner"7; 4) 并 在 一 定 程度 上 减 模型 和 地 标 模 型 [@2, 631 。 
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效用 列表 
HUI-Mine" 2012): HUI-list-INS'?(2015): HUL-list-DEL"*\(2016): B 
1. 列 表 名 字 : Utility list( 效 用 列表 ); 1. 列 表 名 字 : Utility list( 效 用 列表 ); 1. 列 表 名 字 : Utility list( 效 用 列表 ); 
2. 列 表 结构 : tid: 表示 包含 X 的 事务 T; 2. 列 表 结构 : tid: 表示 包含 X 的 事务 Ti; 2. 列 表 结构 : tid: 表示 包含 X 的 事务 T; 
iutil: 是 X 在 T 中 的 效用 ， 即 u(X, T); iutil: 是 X 在 T 中 的 效用 ， 即 u(X, T); iutil: 是 X 在 T 中 的 效用 ， 即 uCX, T); 
rutil: 是 X 在 T 中 的 剩余 效用 ， 即 ruCX, T); rutil: 是 X 在 T 中 的 剩余 效用 ， 即 ru(X, T); rutil: 是 X 在 T 中 的 剩余 效用 ， 即 ru(X, T); 
3. 数 据 集 : Chain, Accidents, Chess, Kosarak, 3. 数 据 集 : Foodmart, Retail, 3. 数 据 集 : Foodmart, Retail, Mushroom, 
Mushroom, Retail, TI0I4D100K , Chess, TIOI4DI 00K ; T1014D100K; 
T40110D 100K; 4. 优 点 和 缺点 : 低 内 存 消耗 和 许多 生成 的 模 4. 优 点 和 缺点 : 可 以 避免 多 次 数据 库 扫 描 ， 更 
4. 优 点 和 缺点 : 首次 引入 了 剩余 效用 的 概念 和 式 ; 运行 时 间 长 。 适合 实际 应 用 ; 运行 时 间 长 。 
生 直 数据 结构 的 效用 数据 列表 ;(k + 1)- 项 集 和 
kr 项 集 的 效用 列表 之 间 的 连接 非常 耗 时 。 
扩展 效用 列表 
-一 = | = 
HUPMimr" QOIS —— ULB-Miner"*(2018): LHUI-Miner 2019): 
Rn partition utility list( 分 区 效用 列 1. 列 表 名 字 : utility list buffer( 效 用 列表 缓冲 1 .列表 名 字 : local utility table (LU-list 局 部 效用 
; 区 ); 列表 ); 
2. 列 表 结构 : Pk: 分 区 ; 2. 列 表 结构 : tid: 表示 包含 X 的 事务 T; 2. 列 表 结构 :iutilPeriods: 存储 缩写 项 集 X 的 最 
UP(X, Pk): 分 区 中 项 集 的 效用 ; iutil，X 在 T 中 的 效用 ; XLHUI (局 部 高 效用 项 集 ) 期限 ; 
RUP(X, Pk): 分 区 中 项 集 的 剩余 效用 ; rutil，X 在 T 中 的 剩余 效用 ; utilPeriods: 存储 缩写 项 集 X 的 PLHUI〈 有 希望 
3. 数 据 集 : Chain, Kosarak, Retail, Mushroom, SUL(X): 指示 有 关 项 集 X 的 信息 存储 在 效用 列 的 LHUI 期 ) 周期 ; 
NT T20I6D100K, 表 缓 冲 区 中 的 位 置 ; 3. 数 据 集 : Mushroom, Retail, Kosarak, E- 
i 3. :C , Chainstore, Chess, Foodmart, i 
AARAU: MNSMHATRDUENURRETIEURD (ORIN Comect Chainstore, Chess, Foodmar, son a ETEIRHUIMGEGEHEBIASAIR 
效用 列表 之 间 的 连接 ; 需要 显 式 设置 占用 大 量 。 “4 优点 和 缺点 : 效用 列表 的 数量 减少 了 ， 内 存 模式 ， 从 而 减少 运行 时 间 和 内 存 消耗 ， 动态 调 
内 存 的 数据 集 分 区 的 数量 。 消耗 很 小 ， 并 且 在 密集 和 稀 玻 数 据 集 上 的 性 能 。 整 参数 具有 挑战 性 。 
都 很 好 ; 构造 效用 列表 缓冲 区 的 过 程 更 加 复 
其 他 列表 
— | -— 
FHNP?(2016): HUOPM"?\(2017): IMHUP^QOUI): ——— . 
1. 列 表 名 字 : positive and negative utility list 1. 列 表 名 字 : utility occupation list (UO-list 效用 1. 列 表 名 字 : index utility list (IU-list 索引 效用 列 
(PNU 正面 和 负面 效用 列表 ); 占用 列表 ); Pi o. " 
2. 列 表 结构 :tid: 事务 标识 符 ; 2. 列 表 结构 :tid: 事务 标识 符 ; 2 列表 结构 :iitem: 修订 数据 库 中 的 第 一 项 ; 
putil: 事务 中 项 集 X 的 正 项 集 之 和 uo: 事务 Tq 中 项 集 X 的 效用 占用 ; iutil: 修订 后 的 数据 库 中 项 集 Xk 的 效用 值 ; 
nutil: 事务 中 项 集 X 的 负 项 集 之 和 ; mo: 事务 Tq 中 项 集 X 的 剩余 效用 占用 ; index: 索引 号 ; 
rputil: 剩余 项 的 正 值 ; 3 数据 集 : BMSPOS2, Retail, Chess, Mushroom, 3. 数 据 集 : Accidents, Chain-store, Chess, 
3. 数 据 集 : Mushroom, Retail, Chess, Accidents, TIOI4D100K, T4011 0D100K; 和 
Psumb, BMS-POS, T1014D100K; 4. 优 点 和 缺点 :在 某 种 程度 上 ， 它 为 效用 挖掘 4 优点 和 缺点 : 减少 效用 列表 之 间 的 3 
4. 优 点 和 缺点 : 不 会 生成 任何 候选 项 ， 也 不 需 č 提供 了 新 的 研究 视角 ; 没有 过 滤 掉 没有 希望 的 作 ， 而 不 生成 任何 候选 对 象 ;效用 的 上 限 不 够 
要 执行 多 个 耗 时 的 数据 库 扫描 ; 在 稀疏 数据 集 项 。 严格 。 
上 的 性 能 较 弱 。 
MUHUI5(2017): DMHUPS^"(2019): 
1. 列 表 名 字 : probability-utility list (PU-list 概率 1. 列 表 名 字 : IUData-List; 
效用 列表 ); 2. 列 表 结构 : item: 此 节点 包含 的 项 的 信息 ; 
2 .列表 结构 : tid: 事务 标识 符 ; utility: 事务 中 项 的 效用 值 之 和 ; 
prob: 事务 Tq 中 项 集 X 的 概率 ; extUB: 作为 长 度 为 1 的 项 集 的 项 的 扩展 上 限 ; 
iu: 事务 Tq 中 项 集 X 的 效用 ; tidList: 根据 项 的 顺序 包含 事务 ID 和 项 位 置 的 
ru: 事务 Tq 中 的 项 集 X 的 剩余 效用 ; 列表 ; 
3. 数 据 集 : Foodmart, Accident, Retail, 3. 数 据 集 : Chainstore, Kosarak, Retail, Accidents, 
T1014D100K; Mushroom, Chess ; 
4 优点 和 缺点 : 在 效率 和 可 伸缩 性 方面 有 明显 4. 优 点 和 缺点 : 在 稀疏 和 密集 数据 集 上 表现 良 
的 优势 ; 在 密集 数据 库 Retail 上 的 性 能 不 佳 。 好 ; 在 某 些 情况 下 ， 内 存 很 昂贵。 
图 2 基于 列表 (list) 的 HUPM 方法 
Fig.2 List-based HUPM method 
表 7 基于 数据 格式 的 HUPM 方法 
Tab.7 Data format-based HUPM algorithm 
算法 名 字 ”数据 格式 数据 集 优点 Dy 
UtilityLevelP?! D100K.C8.T6.S6.I5.N10K, D200K.C10.T8.S8.17.N10, BMS- 生成 大 量 候选 序列 并 需要 多 次 数据 库 扫 
(2010) eae WebView-1, BMS-WebView-2 Ree alr sit 
ebView-1, -WebView- è 
SPHUTTPP9 SP . 短期 约束 和 效用 指标 可 以 大 大 减少 找到 2 
水 平 表示 Retail, Chess, Mushroom, T10I4D100K 需要 多 次 数据 库 扫 描 ， 浪 费时 间 。 
(2017) 的 模式 数量 。 
FHM!" u 不 仅 具 有 HUI-Miner 的 优点 ， 而 且 减 少 比 HUI-Miner 稍微 多 消耗 一 些 内 存 ， 在 密 
E 直 表示 Chain-store, BMS, Kosarak, Retail - ! 
(2015) 六 效用 列表 之 间 的 连接 操作 。 集 数据 集 上 性 能 很 差 。 
CHUMP!! - Mushroom, Retail, Foodmart, Chain-store, T1515D100K， — 在 密集 ， 稀 琉 和 真实 数据 集 都 有 较 好 的 
EE AS 占用 内 存 较 大 。 
(2010) T10I4D100K 性 能 。 
MHUIN!“ » Chain, Kosarak, Pumsb, Accidents, Connect, Chess, 在 中 等 长 度 和 密集 的 基准 数据 集 上 有 良 ER "m 
直 表 示 对 最 小 效用 闵 值 的 选择 不 敏感 。 
(2018) T10I4D100K, T40110D100K 好 的 性 能 。 
HUI-MMUTID"!! i 它 可 以 有 效 地 识别 数据 库 中 的 所 有 "S 
索引 Retail, T10I4D100K Bn . 内 存 消耗 较 大 。 
(2015) HUIs， 并 避免 “稀有 项 问题 ”。 
ISR-MOEAP! Chess, Mushroom, Connect, Accidents, Powerc, OnlineRetai, . ] . . 
索引 进一步 提高 用 户 满意 度 。 所 使 用 的 随机 初始 化 根本 不 能 被 覆盖 。 
(2019) D300kN3k, D200kN3k, D300kN3k 
3.4 增 量 方法 们 会 遭受 非常 大 的 计算 开销 。 因 此 ， 为 了 更 好 地 处 理 增 量 类 
近年 来 ， 在 各 种 应 用 领域 中 产生 了 越 来 越 多 的 数据 ， 随 ， 研究 人 员 提 出 了 基于 增 量 数据 的 HUPM 方法 , 该 方法 仅 


着 时 间 的 推移 ， 数 据 的 特征 和 数量 不 断 变化 。 


必须 在 每 次 输入 新 数据 时 从 头 开 始 自己 的 控 和 


输入 数据 而 无 须 额外 的 数据 库 扫描 ， 并 将 其 反映 到 先 


姑 为 静态 方法 
ERE, MAC ”前 的 处 


BE rp If 


任何 错误 。 


其 于 Apriori 的 增 
村 ， 该 算法 根据 它 
的 高 事务 加 权 效 用 项 集 将 项 集 分 为 


张 春 砚 ， 


PRE-HUI[65] 算 法 是 FUP-HU 算法 


的 方式 找到 的 有 效 项 
的 变 体 ， 它 使 用 两 种 类 


了 比 FUP-HU 算法 更 好 的 性 


数据 上 模式 状态 的 变化 ， 称 为 Pre-large concept. 上 出 


量 HUPM 算法 。 
门 是 原始 数 


高 效用 模式 挖掘 关键 
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型 的 
使 用 新 概念 来 预测 在 增 
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法 保证 


能 ， 但 它 不 是 一 种 ; 


由 于 设置 了 较 低 阐 值 而 丢失 了 一 定 的 模式 。 
y ET A. Kin. nee 运行 


i ee eds 
结构 ， 并 提取 高 效 月 


日 模式 的 候选 者 。 


确 的 方法 ， 


时 间 
的 增 量 
cut 


基于 树 和 基于 图 
描 中 构建 
然后 ， 算 法 通过 额外 的 


i esas 
上 理 它们 ， 更 新 先前 
。IMHAUII[69 算 法 提出 了 增 量 高 高 
ty itemset tree, IHAUI- 
的 信息 ， 以 便 
安 据 HAUIs。 该 算法 使 用 路 径 调 
， 以 保持 IHAUI-Tree 的 紧凑 性 。 
省 构建 全 局 数据 结构 ， 根 和 
并 在 重组 步骤 中 更 新 效用 信息 
Is IIHUM67] 算 法 
可 候选 生成 ，3 
增 量 数据 。TOPK-HUP-INS[s0] 
言 息 ， 并 对 添加 新 事 


Jm RA incremental high average utili 


增 量 数据 库 


模式 。 每 当 输 


新 的 增 
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， 而 且 最 大 化 概念 数据 流 ， 进 
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为 它 与 Apriori 算法 类 似 。 在 此 基础 上 ， 
基于 树 结 构 的 HUMPSC0 算 法 来 克服 THUI-Mine 算法 


口 是 一 个 时 间 敏感 窗口 ， 


安 据 该 模型 的 算法 不 仅 具 有 较 高 的 实用 


on " SHUGrowthr 算法 使 | 


DS-Tree H) A ži 


, HUSP-StreamU5 41 yz: 
J Ela utility lists, ItemUtilLists) i 
HE 逐步 表示 数 ] 


步 提 高 了 准 


确 性 和 运行 


j 树 结构 SHU-Tree, 它 在 全 局 树 


。 计 数 器 的 每 个 效 | 
的 每 个 批 次 相关 联 ， 即 ， 如 果 当 前 窗口 


甘于 Top-k 模式 ，Vetrt-top-k-DSD3] 算 法 提 
六 快速 插入 和 删除 窗口 。 
EA, 用 于 在 滑动 窗 
FILAS, 该 算法 在 不 指定 minutil 的 
中 的 Top-k HUIs. 


] 值 与 当前 窗口 
HA n Mit, WU 


出 了 一 种 新 的 
THUDSI4 算 法 


中 动态 维 


-UT09I 算 法 改进 了 上 述 算法 并 使 月 
于 最 先进 的 shell 流 算 法 。HUPMSI7 算 法 
， 通 过 将 数据 流 的 重要 信息 


居 流 中 


S418 wy 


RID n 


高 效用 


垂直 表示 项 效 
外 部 效用 树 来 模拟 当 
的 完整 HUSP。 
有 了 新 的 数据 结构 


甫 获 到 shell 树 
昌 当 前 窗口 中 的 所 有 HUIs 对 于 数 


模式 。 该 算法 3 


成 : m "i Bs AK 


式 ，c) 对 新 事务 的 挖 折 
3.2 p 
数据 流 被 分 成 批 次 。 这 些 批 次 包含 
了 限 数量 批 次 的 窗 
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列表 ，b) 挖 掘 效 


tation tU 


zji DS - (T... 


HERR, dd 
Rit PESE RS 


RR TE C 


ae n "EM 
户 指 定 。 输 入 3 居 时 ， 


将 作为 
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而 模式 尸 是 | 
P NNER 并 且 
的 每 个 事务 7T( 其 中 1<i<n) 
模型 中 ， 每 个 窗 
RBA. 
AK (i, B2, B3} 的 数据 流 的 示例 ， 
组 成 。 在 该 示例 中 ， 存 在 两 个 滑动 
B, Wi 是 初始 滑动 


集 是 长 度 为 的 模式 。 数据 
ee 在 滑动 窗 
e 


窗口 


; Wı = {Bi, Bo} Fl W2 = {Bo, B3}. XX H 


T,j 
— 2H I PK 
k Xj BS 


组 事务 ， 


表示 项 


O Wi EH 


H. rH 


子 来 减少 旧事 务 中 项 


时 间 衰 减 模型 ,S 中 处 


于 时 间 衰 减 模型 ， 
便 为 最 新 数据 分 配 上 
各 最 新 的 效用 信息 
算法 都 会 从 树 中 修 
高 影响 的 信息 。 
因子 来 发 现 重要 的 


。 同 时 ， 定期 更 新 其 
RU. 每 当 执行 更 新 过 程 时 ， 
， 以 便 仅 保留 对 挖掘 结 果 具 
虑 给 定数 据 的 时 间 


Wi, JHE 


| 除 最 


欠 并 插入 新 批 次 滑动 的 结果 。 也 就 是 说 ， 
英 型 中 ， 算 法 在 当前 窗口 


在 滑动 窗口 


Transaction 


(A,1)(B,3)(D,2) 


(A.2)(B.1(C.4(E.3) 


(C.D(E.4) 


(A,3)(B,2)(D,3) 


(B.4XC.2) 


(A.1Y(B.5(E.3) 


q3 数据 流 示 侦 
ig.3 Data flow example 

4 挖掘 算法 始终 可 以 在 多 
算法 是 该 领域 
JPM 的 算法 , 但 它 在 运行 时 


用 固定 数量 的 最 近 批 次 。 


中 保留 最 


^ 7d 
第 一 个 在 资 


源 受 限 环 


和 内 存 使 用 


最 近 模 式 信息 , 挖掘 最 近 的 HUIs。 为 了 促 ; 


新 的 数据 结构 ， 阻 尼 平 1 


3.4 ”基于 地 标 模型 的 方法 
可 能 希望 从 过 去 的 时 
从 数据 流 中 发 现 长 期 模式 ， 
昌 会 随 着 时 间 的 


示 窗 口 ins A Bed 
些 情况 会 影响 挖掘 


以 有 SAMAR FEA BL. 
去 基于 索引 列表 寺 间 衰减 模型 的 方法 

并 设计 重 s cu 事务 的 重要 性 
最 新 的 相关 信息 。 该 模型 使 用 用 户 指定 的 
后 的 MARCY PHA CE DURS 如 果 
岂可 以 在 最 近 的 挖掘 过 程 中 考虑 它 。 
JME ÑT k 模型 更 可 靠 和 有 效 ， fec 
排除 ,该 方法 可 L ]T HUPM, 
ie A E EE 
维护 数据 项 繁 项 集 挖掘 方法 通过 将 它们 乘 以 衰减 因 


E BJ HU vx, 
个 事务 组 成 的 数据 流 ， 了 是 从 5 PER 
事务 中 外 的 频率 Te RAN freq, X) ， 基 于 
的 衰减 频率 表示 为 dfreq(X) ,计算 如 下 : 


dfreq(X) = >》 freq(T, , X)x f" 
k=l 


数据 结构 ， 以 ; 


其 于 事务 的 到 达 时 


即 频 率 。 设 


(9) 


数据 更 多 的 


pus 


TAEI) F 


了 效 的 挖掘 过 程 ， 
多 树 和 事务 效用 列 


地 标 模 型 用 


E F 


— 
目 可 以 长 时 间 
25%) MAS-Tree, 


en PM 而 


= E: fe 碑 意 意 


ii shell 的 : 
识别 shell; 


IF EBS 


E 进 不 断 增多 ， 
结果 ， 并 且 会 增 


义 的 窗口 挖掘 HUIs。 
法 , 它 不 仅 可 以 识 
该 算法 使 用 新 颖 
ki 上 存储 潜在 的 


页 种 有 效 的 内 存 自 用 机 制 来 解决 现 有 内 存 
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不 足以 向 MAS-Tree 添加 新 的 潜在 shell 的 问题 。 


AJ, SEES ”在 这 种 情况 下 ， 批 处 理 过 程 必 须 重新 扫描 整个 更 新 的 数据 库 以 


居 流 上 找到 shell, 


有 很 高 的 召 ” ”维护 最 新 信息 ， 例 如 ， 客 户 闻 购买 了 四 支 铅笔 和 一 块 橡皮 ， 而 


MAHUSP HY ELE cht tE BH 


AED ATE SEO MEAT IME, EI FARR AE RISA OR AIR 


客户 了 购买 了 一 个 电脑 鼠标 。 一 段 时间 后 ， 客 户 Z 可 能 会 来 买 
个 面包 和 一 瓶 牛奶 ， 客 户 雹 可 能 会 来 还 两 支 铅笔 ， 客 户 了 可 
能 会 来 退还 鼠标 。 因 此 ， 增 量 数据 库 B4”"2%29 中 高 效用 挖掘 可 以 


uh nm 包括 党 


的 实验 方法 、 实 验 数 据 集 数据 流 由 以 实时 方式 顺序 到 达 的 连续 有 序数 据 组 成 。 数 


主要 的 实验 方法 从 两 个 
静态 方法 、 动 态 方法 ,动态 方法 包括 增 量 


方面 阐述 ， 分 别 为 ”点击 流 挖掘。 与 传统 的 数据 库 不 同 ， 数 据 流 具 有 一 些 特殊 的 


据 流 挖掘 有 许多 种 应 用 程序 ， 例 如 在 线 电子 商务 或 事务 流 中 
的 知识 发 现 ， 网 络 流 分 析 ， 传 感 器 数据 监视 以 及 Web. 日 志和 


数据 流 方法 等 。 属性 : 连续， 无 界 ， 具 有 高 速 且 随 时 间 变 化 的 数据 分 布 。 在 
它们 在 很 长 的 一 段 ”数据 流 情 "56 人 人 上 高 效用 项 集 挖掘 可 以 避免 产生 太 多 的 模 
库 大 小 的 快速 扩 式 ， 并 且 可 以 过 滤 掉 没有 希望 的 模式 。 


本 保持 稳定 的 数据 ， 
JAAR, AAS AT AR. BY 


展 已 导致 有 效 数据 挖掘 技术 的 多 种 方法 的 发 


展 。 高 效用 项 集 42 典型 数据 集 


2 中 查找 项 集 在 HUPM 中 ， 研 究 者 经 常 使 用 的 典型 数据 集 有 稀 琉 数据 


， 其 中 涉及 它们 之 
库 中 , 增加 、 删 除 和 1 


集 、 密 集 数据 集 ( 当 数据 库 的 密度 小 于 1% 时 , 数据 集 的 性 质 就 


多 改 是 非常 频繁 的 操作 ， 会 稀 琉 FE0。) 和 合成 数据 集 。 有 具体 数据 集 特征 如 表 8 所 示 。 


des 数据 集 特征 
Tab.8 Data set features 


长度 ”最 大 事务 长 度 GREA ”类 型 应 
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" 
m 


onim E ge 


51 7.2239 Dense MHUI!', FOSHU"*!, MAU-Growth?!, MUHUIP?, IMHUPP*! 
0.5052 Sparse UP-growth?"l, CRUSPG0 

170 0.0156 Sparse CHUIMiner""!, MHUIU*, CHUM?"!, MAU-Growth?!, HUP-Miner'^! 

37 49.3333 Dense CHUIMiner!!!, MHUIU*, FOSHU'S, CHUMP!, UP-growth?7! 

43 33.3333 Dense CHUlIMiner!!!!, MHUI!, ULB-Miner*!, IMHUP™! 

14 0.2822 Sparse PRE-HUI-DEL"!, CHUIMiner !!!, CHUM®")”, HIMUP!, ULB-Miner"**! 

2,498 0.0196 Sparse MHUI!"I, HUP-Miner™!, ULB-Miner"*, LHUI“7! 

23 19.3277 Dense CHUlIMiner!!!!, FOSHU!'9, CHUME!,, HIMUP!I, dHHAUIMP?! 
3.5021 Dense MHUI"4!, FOSHU09 

76 0.0625 Sparse CHUIMiner ""), FOSHU'5, CHUMP", MAU-Growth3!, HUP-Miner! 

29 1.1609 Dense MHUI!", CHUMP", HUP-Miner!, HUOPM!?!, MUHUI™! 

77 4.2038 Dense MHUI!"4), HUP-Miner^, HUOPMP?! 

SLE FFERI] b) 内 存 使 用 情况 0333941.41。 对 于 数据 集 ， 观 察 内 存 的 


。Chain-store 数据 集 是 从 主要 市 场 ”使 用 情况 ， 确 定 使 用 成 本 的 高 低 。 剪 枝 策略 、 效 用 列表 的 数 
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言 息 和 购买 数量 。 —— 量 等 因素 都 会 影响 内 存 的 使 用 。 
零售 商店 的 零售 市 场 购物 c) 候选 项 集 的 数量 [53561。 


过 不 同 算法 在 不 同 数据 集 上 


E [E 


5, 但 是 其 TUA 比 Chain-s 


F 其 他 数据 集 ， 生成 的 HTWUIs 和 HUIs 的 数 


进行 评估 ， 以 进一步 理解 所 


lim 
it 


并 在 设置 之 间 随 ”比较 算法 的 性 能 。 算 法 中 不 后 


M BMS tse Cte 


的 修剪 策略 会 直接 影响 候选 项 
集 数 量 的 多 少 。 
1 部 和 外 部 效用 。 d) 可 伸缩 性 分 析 呈 3%40. 和 1。 在 合成 数据 集 上 比较 算法 


是 包含 人 口 普查 数 ”的 可 伸缩 性 ， 随 着 事务 数量 的 变化 ， 比 较 算 法 的 运行 时 间 、 
Se Ot: 内 存 使 用 等 指标 ， 即 所 提出 的 算法 在 不 同 的 数据 集 大 小 和 参 


ML 
。 数 据 集 TIOIADIOOK 至 
IBM Quest 合成 数据 生 


| T1014D1000K 的 e) 时 间 复 杂 度 [4.68。 在 MHAII8 中 , & ni 为 给 定数 据 库 
马 生 成 , 项 数 是 恒定 的 ， 中 的 事务 数 , ni 为 每 个 事务 中 的 项 数 。 构造 初 始 HAI-Lists 的 
。 在 从 TION10000L1000 到 时 间 复 杂 度 为 O(2xnxni  nixnilog2 ni)。 通 过 递归 构造 HAI- 
项 数 和 平均 事务 时 间  — List 来 挖掘 所 有 项 集 需要 O(nix(2”-1-m)) 的 时 间 复 杂 度 。 在 


00L4000 的 另 一 个 数 


评价 HUPM 经 常 有 
耗 、 候 选项 集 数量 、 


日 到 的 指标 有 运行 时 间 、 hues 新 的 数据 库 中 的 过 程 的 时 间 
! 缩 性 、 查 全 率 、 查 准 


间 等 组 成 , 在 每 个 数据 集 ,同时 减 小 minutil Bü 


数 下 是 否 具有 良好 的 可 扩展 性 。 


LIHUPI68 算 法 中 , 令 No 和 Ni 为 分 别 由 Nm 个 项 组 成 的 原始 数 
据 库 和 增加 的 数据 库 中 的 事务 数 。 将 所 有 事务 插入 原始 或 更 
复杂 度 为 O(NoXNn) BR O(NixN)。 
由 于 候选 项 集 需 要 额外 的 数据 库 扫 描 以 从 Nc 个 候选 项 中 识 
别 出 实际 的 高 效用 模式 ， 因 此 用 于 增加 的 数据 库 的 时 间 复 杂 
时 间 和 输出 时 ” 度 对 于 原始 数据 库 为 O(NoxNmxNo) 或 O((No + Ni)) XNmxNe。 
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率 等 。 实 验 中 


到 算法 变 得 执行 时 间 太 长 ， 内 存 不 足 或 观察 到 明显 的 赢家 


高 效用 模式 挖掘 问题 的 解决 方法 虽然 得 到 了 一 定 的 发 展 ， 


录用 定稿 KÄR, F: 
但 是 现 有 的 方法 仍然 存在 着 不 足 之 处 ， 这 为 研究 者 提供 了 下 


步 的 研究 方向 : 
a) 效用 模式 中 存储 着 大 量 有 效 的 信息 , 但 是 仍 存在 着 大 
量 元 余 模 式 。 针 对 减少 元 余 模 式 的 紧凑 高 效用 模式 进行 研究 
与 分 析 ， 本 文 作 者 项 目 组 下 一 步 研究 Top-k 闭 高 效用 模式 的 
头 

区 


阶段 算法 。 该 算法 使 用 改进 的 uList 结构 , 计算 模式 的 真人 
和 剩余 效用 来 前 枝 遍历 空间 ， 对 结果 集 存 储 的 Top-k 缓存 
内 容 实 时 更 新 ， 进 行 闭 高 效用 模式 生成 。 
b) 高 效用 模式 由 于 生成 大 量 的 候选 项 集 , 而 消耗 了 非常 
多 的 内 存 和 时 间 。 针 对 减少 这 两 方面 来 分 析 ， 本 文 作者 项 目 
组 下 一 步 研 究 基于 改进 效用 列表 的 增 量 算法 。 该 算法 应 用 了 
ULB-Minert6l 算 法 中 的 效用 列表 缓冲 区 结构 能 大 幅度 地 
生成 候选 项 集 占用 的 内 存 。 此 算法 从 增 量 角度 挖掘 项 集 ， 更 
加 的 贴 合 实际 应 用 。 
c) 在 高 效用 模式 挖掘 中 ， 可 伸缩 性 是 究 问题 
申 缩 性 就 是 在 一 定 的 维度 下 ， 处 理 更 多 的 数据 。 可 采取 以 下 
措施 来 解决 HUPM 中 有 关 可 伸缩 性 的 问题 : (1) 并 置 : 通过 并 
数据 和 人 代码， 减少 因 获取 所 需 数 据 而 产生 的 必要 开销 ; (2) 
缓存 ， 如 果 数 据 和 代码 不 能 并 置 ， 就 缓存 数据 ， 以 减少 与 其 
使 用 相关 的 开销 ; (3) 通 过 分 割 处 理 代 码 、 并 置 相 关 的 分 区 ， 
尽 可 能 将 相关 的 处 理 过 程 集 中 在 一 起 ， 可 以 减少 单个 工作 单 
元 的 处 理 时 间 。 
d) 高 效用 效用 模式 挖掘 现 阶 段 主 要 应 用 于 单个 数据 流 ， 
没有 多 个 数据 流 的 情况 。 可 以 通过 并 行 的 方法 同时 处 理 多 个 
数据 流 。 首 先 需 要 对 程序 进行 并 行 化 处 理 ， 也 就 是 说 将 工作 
各 部 分 分 配 到 不 同 处 理 进程 (线程 ) 中 。 从 理论 上 讲 ,， 在 n 个 
并 行 处 理 的 执行 速度 可 能 会 是 在 单一 处 理 机 上 执行 的 速度 的 
n ie 
e) 随 着 大 数据 、 云 计算 等 技术 广泛 应 用 于 实际 生活 中 ， 
a ets eae ok 
据 环境 下 的 HUPM 中 ， 可 以 使 用 Spark 工具 来 存储 数据 ， 并 
实现 了 由 单机 到 分 布 式 的 改造 ， 可 以 使 用 Storm 工具 实时 地 
处 理 大 数据 流 ; 还 可 以 使 用 Python 中 的 Scrapy HEAL IMC HL 
网 站 数据 ， 提 取 结 构 性 数据 ， 并 且 这 是 一 个 非常 好 的 从 互联 
网 上 抓 取 数据 的 Web 框架 。 利 用 这 些 工具 、 框 架 可 以 解决 高 
效用 模式 挖掘 中 的 计算 、 存 储 资源 、 容 错 、 优 化 负载 均衡 等 


问题 。 
6 mis 


高 效用 模式 挖掘 OHUPM) 是 效用 挖掘 中 一 项 至 关 重 要 的 
任务 。 到 目前 为 止 ， 已 经 为 HUIM 的 任务 广泛 提出 了 许多 技 
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imli 
my 
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Th nH 
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a] 
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术 和 方法 。 本 文 介绍 了 HUPM 的 基本 概念 、 实 例 、 相 关 概 念 ， 
对 高 效用 关键 技术 进行 了 阐述 , 分 别 从 基于 Apriori、 基 于 树 、 


基于 映射 、 基 于 数据 格式 、 基于 索引 、 基于 列表 的 方法 论述 。 
分 析 了 算法 的 工作 流程 、 用 途 、 使 用 的 数据 集 以 及 优 缺 点 。 
在 增 量 数据 库 和 数据 流 上 , 分 析 描 述 了 HUPM 的 方法 。 最 后 
提出 下 一 步 的 研究 方向 ， 本 文 提 到 的 大 多 数 算法 还 是 应 用 于 
静态 数据 中 ， 使 之 运用 于 数据 流 是 以 后 的 工作 之 重 。 
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